3 research outputs found

    Strukturell variasjon som påvirker genetisk miljøtilpasning i laksefisk

    Get PDF
    Structural variations (SVs), e.g. deletions, insertions, inversions and duplications of sequences, are a major source of genomic variation affecting more base pairs in the genome than single nucleotide polymorphisms (SNPs). Despite their increasingly recognised importance in adaptive evolution and species diversification, SVs are vastly understudied in most species. Long-read sequencing, together with recently developed bioinformatic tools, have provided step-change improvements in the precision and recall of SV detection and allow us to increase the detected SVs manyfold across the species range. In addition, long-reads represent a major shift in our ability to build continuous genome assemblies as fundamental resources for most genome wide studies. The work in this thesis utilises long-read data to generate multiple genome sequences for the two salmonid species Atlantic salmon (Salmo salar) and lake whitefish (Coregonus clupeaformis). We present the first pan-genome for Atlantic salmon, comprising 11 long-read-based assemblies across the species range. Among these, the highest quality genome has 2.55 Gbp assembled into chromosome sequences, 259 Mbp more sequence than in the previous Atlantic salmon reference genome. The genome has a highly improved continuity with contig N50 increasing from 58 kbp to 28.06 Mbp (484-fold). The detection of SVs in these 11 individuals, revealed 1,061,452 SVs, with an average of ~77.4 Mbp of sequence differing per sample. The Atlantic salmon has adapted to different river environment across a large geographical distribution. To investigate genomic variation underlying these adaptations, we associated SVs and environmental data in a dataset of 366 short-read samples genotyped using genome graph analyses. These analyses highlighted multiple SVs contributing to environmental adaptations, including an 18 kbp deletion encompassing a polymorphic segmental duplication of three genes associated with annual precipitation. Next, we use the Atlantic salmon pan-genome to study the emergence of supergenes. Because supergenes can be maintained over millions of years by balancing selection and typically exhibit strong recombination suppression, their underlying functional variants and how they are formed are largely unknown. Inversions are type of rearrangement commonly associated with supergenes, and by directly comparing multiple highly continuous genome assemblies we were able to detect a number of large inversions in Atlantic salmon. A 3 Mb inversion, estimated to be ~15,000-year-old, and segregating in North American populations, displayed supergene signatures with adaptive variation captured within the standard arrangement of the inversion, as well as other adaptive variation accumulating after the inversion occurred. Characterization of other inversions with matched repeat structures at the breakpoints did not show any supergene signatures, suggesting that shared breakpoint repeats may obstruct the supergene formation. Lastly, we created long-read based genome assemblies for sympatric species pairs (Dwarf and Normal) belonging to lake whitefish (Coregonus clupeaformis). The species pairs offer a suitable model system for studying genomic patterns of differentiation and in particular the role of SVs in speciation. By combining long-reads, direct assembly, and short-read methods we detect 89,909 high-confidence SVs in the species pair across two lakes, covering five times more sequence in the genome compared to SNPs. In the study, we highlight shared outliers of differentiation between the lakes, indicating that they contribute to speciation. Interestingly, we find that more than 70% of SVs differentiating between the Normal and Dwarf species pairs of lake whitefish are overlapping transposable elements. This work demonstrates that SVs may play an important role for the differentiation and speciation of sympatric species pairs in lake whitefish.Strukturell variasjon (SVer), for eksempel delesjoner, insersjoner, inversjoner og duplikasjoner av sekvens, er en viktig kilde til genomisk variasjon som samplet sett påvirker flere basepar i genomet enn punktmutasjoner (SNPs). Til tross for en økende annerkjennelse for at SVer spiller en viktig rolle i genetisk tilpassing til ulikt miljø og artsdannelse har denne typen variasjon vært lite studert i mange arter. Ny DNA-sekvenseringsteknologi med lengre leselengder (long-read sequencing), samt utvikling av nye bioinformatiske verktøy, har ført til drastiske forbedringer i deteksjonen av SVer. ‘Long-read’ sekvensering gjør det også mulig å lage mer komplette og sammenhengende genomsekvenser enn tidligere. I denne avhandlingen benytter vi oss av ‘long-read’ data til å lage flere genomsekvenser av høy kvalitet for to ulike laksefiskarter: Atlanterhavslaks (Salmo salar) og en Nordamerikansk type sik ‘lake whitefish’ (Coregonus clupeaformis). Her rapporterer vi det første pan-genomet for Atlanterhavslaks. Det består av 11 assemblier basert på ‘long- read’ sekvensering av individer fra fire ulike fylogeografiske grupper av villaks. Assembliet av høyest kvalitet inkluderer 2,55 Gbp sekvens i kromosomer, 259 Mbp mer enn det forrige referansegenomet til Atlanterhavslaks. I tillegg ble andelen sammenhengende sekvens, målt som contig N50, økt fra 58 kbp til 28,06 Mbp (484 ganger høyere). Vi fant 1.061.452 SVer på tvers av de 11 individene med ~77,4 Mbp gjennomsnittlig sekvensforskjell per prøve. Atlanterhavslaksen har over tid tilpasset miljøet i ulike elver. For å studere underliggende genetisk variasjon for denne tilpasningen assosierte vi SVer med ulike miljøvariabler i et datasett bestående av 366 ‘short-read’ sekvenserte prøver ved bruk av en genom-graf. Ved hjelp av disse analysene fant vi flere SVer som bidrar til miljøtilpasning, blant annet en 18 kbp lang delesjon som inneholder tre gener assosiert med mengden nedbør i området. Vi brukte så pan-genomet for Atlanterhavsaks til å studere dannelsen av ‘supergener’. Supergener er en sammenkobling av genetisk variasjon i koblingsulikevekt som for eksempel kan oppstå ved hjelp av store inversjoner. Her utnyttet vi 11 genomassemblier til å identifisere og karakterisere en rekke store inversjoner i Atlanterhavslaks. En av inversjonene på 3 Mbp, estimert til å være ~15.000 år gammel, viste signaturer for utvikling som supergen. For de andre inversjonene som var flankert av repetert DNA fant vi ikke karakteristiske trekk på supergener, noe som tyder på at det repetitive DNA forhindrer en dannelse av supergener. Til slutt lagde vi genomsekvenser for ulike former (‘Normal’ og ‘Dwarf’) av ‘lake whitefish’ (Coregonus clupeaformis) som lever i de samme innsjøene i Nord-Amerika. Genomsekvensene muliggjør studier av genomiske mekanismene bak artsdannelse i denne laksefisken. Ved å kombinere ‘long-read’ data, direkte sammenlikning av assemblier, og ‘short-read’ data fant vi 89,909 SVer som skilte de to formene av ‘lake whitefish’ i to innsjøer. SVene omfatter mer enn fem ganger flere basepar i genomet sammenlignet med SNPs. I studiet fant vi flere SVer med avvikende forekomst (‘outliers’) i de to formene av ‘lake whitefish’, noe som indikerer at disse SVene bidrar til artsdannelse. Videre fant vi at 70 % av SVene overlappet en form av repetert DNA kalt transposable elementer. Dette arbeidet understreker at SVer kan spille en viktig rolle for artsdannelse i ’lake whitefish’

    Benchmarking of metagenomic classification tools and storage stability of bioaerosol samples

    Get PDF
    Air is a microbial habitat of crucial importance for public health. As such it is relevant for detection of potential epidemic or biothreat agents. The study of microbiological diversity in air through metagenomic analysis is a field under rapid development, and demands more knowledge. The work presented in this thesis investigated the current procedures used in metagenomic analysis of air samples, and consists of two parts. The first part assessed how long-time storage at low temperatures affects the stability of DNA concentration of filter-based air samples. Qubit and qPCR targeting the 16S rRNA gene were used to measure the DNA concentration. No evidence was found suggesting a detrimental effect of filter storage at – 80 °C. However, the findings may suggest negative effect of repeated freeze-thaw cycles on the yield of purified DNA. The second part assessed the performance of three metagenomic classification tools for creation of taxonomic profiles of air samples: Kraken 2, One Codex and Kaiju. The testing was conducted on various datasets. The results showed that Kraken 2 is the superior classification tool of well-studied species. However, Kraken 2 performed poorly on more complex datasets closer resembling the biological composition in air samples, due to inadequacies in the reference database. The classification of real air samples showed substantial variation between the profiles made by the tools. These findings further emphasise the need for improvements of the reference databases by adding more species specific for air, which should be a key objective for further work. There could also be improvements from altering the lowest common ancestor approach implemented in the classification algorithms, which seems to be a limiting factor for the taxonomic resolution.Luft er et mikrobielt habitat med stor betydning for folkehelsen, med relevans for deteksjon av potensielle smittestoffer som kan føre til epidemiske utbrudd. Studiet av mikrobiell diversitet i luft ved metagenomisk analyse er et forskningsfelt i rask endring, og det kreves mer kunnskap. Arbeidet som er presentert i denne oppgaven tok for seg prosedyrene brukt for metagenomanalyser av luft, og består av to deler. Den første delen tok for seg hvordan langtidslagring på lave temperaturer påvirker DNA-konsentrasjonen av filterbaserte luftprøver. Qubit og qPCR basert på 16S rRNA-genet ble brukt til å måle DNA-konsentrasjonen. Det ble ikke funnet bevis for at lagring på -80°C opp til syv måneder har negativ effekt på konsentrasjonen. Resultatene antyder imidlertid negativ effekt fra gjentatte tine-fryse-sykluser på DNA-konsentrasjonen av renset DNA. I den andre delen vurdertes prestasjonen av tre metagenomiske klassifiaksjonsverktøy brukt til å lage taksonomiske profiler av luft: Kraken 2, One Codex og Kaiju. Testingen ble gjennomført på ulike typer datasett. Resultatene viste at Kraken 2 gjør den beste klassifiseringen på velstuderte arter, men presterte dårligst på mer komplekse datasett som ligner mer på artene funnet i luft. Dette skyldes mangler i referansedatabasen. Klassifikasjonen av reelle luftprøver viste betydelige avvik mellom profilene fra de testede verktøyene. Disse funnene understreker at databasene må utbedres ved å legge til arter mer spesifikke for luft, som bør være et hovedpunkt for videre arbeid. «Least common ancestor»-tilnærmingen som brukes av verktøyene kan også forbedres, da det ser ut til å være en begrensende faktor for den taksonomiske oppløsningen.Forsvarets ForskningsinstituttacceptedVersionM-K

    Benchmarking of metagenomic classification tools and storage stability of bioaerosol samples

    Get PDF
    Air is a microbial habitat of crucial importance for public health. As such it is relevant for detection of potential epidemic or biothreat agents. The study of microbiological diversity in air through metagenomic analysis is a field under rapid development, and demands more knowledge. The work presented in this thesis investigated the current procedures used in metagenomic analysis of air samples, and consists of two parts. The first part assessed how long-time storage at low temperatures affects the stability of DNA concentration of filter-based air samples. Qubit and qPCR targeting the 16S rRNA gene were used to measure the DNA concentration. No evidence was found suggesting a detrimental effect of filter storage at – 80 °C. However, the findings may suggest negative effect of repeated freeze-thaw cycles on the yield of purified DNA. The second part assessed the performance of three metagenomic classification tools for creation of taxonomic profiles of air samples: Kraken 2, One Codex and Kaiju. The testing was conducted on various datasets. The results showed that Kraken 2 is the superior classification tool of well-studied species. However, Kraken 2 performed poorly on more complex datasets closer resembling the biological composition in air samples, due to inadequacies in the reference database. The classification of real air samples showed substantial variation between the profiles made by the tools. These findings further emphasise the need for improvements of the reference databases by adding more species specific for air, which should be a key objective for further work. There could also be improvements from altering the lowest common ancestor approach implemented in the classification algorithms, which seems to be a limiting factor for the taxonomic resolution.Luft er et mikrobielt habitat med stor betydning for folkehelsen, med relevans for deteksjon av potensielle smittestoffer som kan føre til epidemiske utbrudd. Studiet av mikrobiell diversitet i luft ved metagenomisk analyse er et forskningsfelt i rask endring, og det kreves mer kunnskap. Arbeidet som er presentert i denne oppgaven tok for seg prosedyrene brukt for metagenomanalyser av luft, og består av to deler. Den første delen tok for seg hvordan langtidslagring på lave temperaturer påvirker DNA-konsentrasjonen av filterbaserte luftprøver. Qubit og qPCR basert på 16S rRNA-genet ble brukt til å måle DNA-konsentrasjonen. Det ble ikke funnet bevis for at lagring på -80°C opp til syv måneder har negativ effekt på konsentrasjonen. Resultatene antyder imidlertid negativ effekt fra gjentatte tine-fryse-sykluser på DNA-konsentrasjonen av renset DNA. I den andre delen vurdertes prestasjonen av tre metagenomiske klassifiaksjonsverktøy brukt til å lage taksonomiske profiler av luft: Kraken 2, One Codex og Kaiju. Testingen ble gjennomført på ulike typer datasett. Resultatene viste at Kraken 2 gjør den beste klassifiseringen på velstuderte arter, men presterte dårligst på mer komplekse datasett som ligner mer på artene funnet i luft. Dette skyldes mangler i referansedatabasen. Klassifikasjonen av reelle luftprøver viste betydelige avvik mellom profilene fra de testede verktøyene. Disse funnene understreker at databasene må utbedres ved å legge til arter mer spesifikke for luft, som bør være et hovedpunkt for videre arbeid. «Least common ancestor»-tilnærmingen som brukes av verktøyene kan også forbedres, da det ser ut til å være en begrensende faktor for den taksonomiske oppløsningen.Forsvarets ForskningsinstituttacceptedVersionM-K
    corecore